技術 2026年4月23日(木) 約12分 Qwen3.6-27B DenseとQwen3.6-35B-A3B MoEをM1 Maxで比べたらMLXがOllamaの2倍速だった Qwen3.6-27BをOllama/MLX両方で試したらOllamaはVLプロジェクタ付きGGUFをロードできず、MLXでは11 tok/sで動いた。ついでに35B-A3BをMLXで動かしたらOllama GGUFの2倍速。BBSを両モデルに作らせて意図汲み取りの差も見た。 LLM ローカルLLM Qwen Ollama MLX Apple Silicon MoE 実験
技術 2026年4月21日(火) 更新 約9分 Qwen3.6-35B-A3BをOllamaでM1 Max 64GBに流したら思考が13倍に膨らんだ Ollama 0.20.6でQwen3.6-35B-A3Bを試した記録。Gated DeltaNet対応済みで生成速度はQwen3.5と同じ27 tok/s、ただし思考トークンは13倍。マルチターン・ペルソナ・NSFW三段階の挙動もまとめた。 LLM ローカルLLM Qwen Ollama Apple Silicon MoE 実験
技術 2026年4月17日(金) 約11分 Z-Image i2iでドット絵変換できるか試した Illustrious i2i + pixel-art-xl LoRAが最速だったドット絵変換に、Z-Image用ピクセルアートLoRAという別ルートがあった。LoRAの互換性、利用可能なLoRA、メモリ要件を調査。 Z-Image 画像生成 Apple Silicon 実験
技術 2026年4月16日(木) 更新 約12分 WAI-Illustriousの新版探してたらWAI-Animaが出てたので試した WAI-Illustriousで知られるWAI0731がAnima派生モデル WAI-Anima v1をリリース。2月のAnima記事から2ヶ月で派生モデルが急増し、LoRAツールキットやテキストエンコーダのアップグレードも登場。preview3-baseとWAI-Anima v1を実際に動かして比較した。 AI 画像生成 ComfyUI Qwen Apple Silicon Stable Diffusion LoRA 実験 Anima WAI-Anima
技術 2026年4月16日(木) 約13分 AMD ROCmのCUDA追い上げはどこまで来たか EE TimesのAMD AI Software VP Anush Elangovan氏インタビューをベースに、ROCmとCUDAのエコシステム差を整理。Strix HaloでROCmを使い続けて4回壊れた実体験と、NVIDIA・AMD・Apple Siliconの実務での使い分けも。 AMD NVIDIA ROCm CUDA GPU AIインフラ PyTorch MLX Apple Silicon
技術 2026年4月14日(火) 約10分 Qwen Image Editで写真をドット絵に変換できるか試す Qwen Image Edit、JS減色、Illustrious i2i + LoRAなど5パターン試して、最終的にIllustrious i2i単体が最速・最軽量でドット絵変換できることがわかった。 Qwen 画像生成 Apple Silicon 実験
技術 2026年4月14日(火) 約14分 ローカルVision LLMでキャラ画像からRPGパラメータを抽出できるか試した Gemma、Qwen2.5-VLなどのローカルVision LLMにキャラクターの立ち絵やドット絵を入力し、RPG風のステータスをJSON形式で返せるか実験した記録。 AI ローカルLLM VLM 画像認識 Ollama Gemma Qwen Apple Silicon 実験
技術 2026年4月2日(木) 更新 約13分 SwiftLMはTurboQuantとSSDストリーミングをMetalシェーダーに統合したSwift製LLM推論サーバー Apple Silicon専用のMLX推論サーバーSwiftLMが、TurboQuant V2+V3ハイブリッドKVキャッシュ圧縮とNVMe SSDエキスパートストリーミングをネイティブMetal実装で提供する。 Apple Silicon LLM MLX ローカルLLM 推論最適化 KVキャッシュ MoE Swift
技術 2026年3月31日(火) 約6分 OllamaがMLXバックエンドに移行、Apple Siliconでのローカル推論が劇的に高速化 Ollama 0.19がApple SiliconでのバックエンドをMLXに切り替え、プリフィル1810トークン/秒・デコード112トークン/秒を達成。NVFP4量子化サポートとキャッシュ改善も同時投入された。 Ollama MLX Apple Silicon LLM ローカルLLM 推論最適化
技術 2026年3月26日(木) 約10分 ComfyUIアプデ後にQwen Image Editが10分かかるようになった原因を特定した MPSのBF16演算がFP16の2倍遅い問題と、FP16 Attentionバグが重なって発生した速度劣化の原因と対策 ComfyUI Qwen Apple Silicon MPS PyTorch 実験
技術 2026年3月25日(水) 約18分 HypuraのNVMeストリーミングとTurboQuantのKVキャッシュ量子化 llama.cppのmmap設計を脱却してNVMe 3層配置でDenseモデルもストリーミングするHypuraと、極座標変換で量子化定数オーバーヘッドを排除するTurboQuant。Flash-MoEとの設計比較、KVキャッシュ圧縮が実際に効くシナリオの整理も。 LLM ローカルLLM 量子化 Apple Silicon 推論最適化 KVキャッシュ Rust
技術 2026年3月1日(日) 更新 約13分 LTX-2とWan 2.2をM1 Max 64GBで動かせるのか調べて動かした LTX-2とWan 2.2をM1 Max 64GBで動かした。FP8はMetal非対応、GGUF形式で回避。Wan 2.2は2秒に82分。LTX-2は公式パイプラインがMPSでNaNを出し、KSampler代替でも品質が実用に達しない。 AI 動画生成 LTX-2 Wan Apple Silicon 実験